凸优化：从统计似然到凸规划

统计推断提出的问题是："在给定数据的前提下，最可能的底层参数是什么？" 这一幻灯片将这一问题与 凸优化相结合。我们把概率意义上的似然概念转化为一个结构化程序，表明在对数凹性条件下，寻找最优估计等价于求解一个凸优化问题。

似然框架

该 似然函数 是概率分布 $p_x(y)$ 被视为参数 $x$ 的函数（对于固定的观测样本 $y$）。为了估计 $x$，我们采用 最大似然（ML）估计：选择使观测数据最有可能出现的那个值。

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

为提高计算效率，我们使用 对数似然函数，即 $l(x) = \log p_x(y)$。由于对数函数是单调递增的，它能保持最大值的位置不变，同时将独立观测产生的乘积转化为易于处理的和式。

我们将估计过程形式化为一个数学规划问题：

$$\begin{array}{ll} \text{最大化} & l(x) = \log p_x(y) \\ \text{约束条件} & x \in C \end{array}$$ (7.1)

该程序是一个 凸优化问题 当满足以下条件时：

ML 估计要求将 $p_x(y)$ 在 $x \notin C$ 时重新定义为零，以明确施加物理或先验约束。在优化空间中，这意味着违反这些约束的参数 $x$ 对应的对数似然函数被赋值为 $-\infty$，从而为优化器创建了一道不可逾越的屏障。

🎯 核心原理

从“最大似然”到“凸规划”的转换依赖于对数密度的凹性。如果噪声或分布是对数凹的，统计估计就成为一个全局可解的优化任务。

问题 1

为什么在优化中更倾向于使用对数似然函数 $l(x)$ 而不是似然函数 $p_x(y)$？

它改变了最大值的位置，使其更加稳定。

它是单调递增函数，能将乘积转化为和。

它确保问题始终是线性的。

它消除了对约束的需求。

问题 2

在什么条件下，问题（7.1）的最大似然估计被视为凸优化问题？

当 $p_x(y)$ 是 $x$ 的线性函数时。

当 $l(x)$ 是凸函数且 $C$ 为任意集合时。

当 $l(x)$ 是凹函数且 $C$ 由线性等式和凸不等式定义时。

仅当噪声为高斯分布时。

问题 3

如果某个参数 $x$ 违反了先验约束（$x \notin C$），那么对数似然函数被赋予什么值？

$+\infty$

$-\infty$

问题 4

真或假：对于对数凹密度且带有凸约束的情况，若最大似然估计存在，则其总是具有唯一的全局最大值。

真

假

问题 5

考虑一个参数为 $\lambda$ 的指数分布。如果我们知道 $\lambda \ge 5$，但数据表明 $\lambda = 2$，那么受约束的最大似然估计（MLE）将在何处？

在 $\lambda = 2$ 处

在 $\lambda = 5$ 处

该问题无解。

在 $\lambda = 0$ 处